7. 数据是后训练最重要的基石

在大模型后训练(Post-training)中:

数据质量,往往比模型规模更重要。

很多时候:

因此:

数据是决定模型能力上限的核心因素之一。


1. 为什么数据如此重要

后训练本质上是:

让模型学习“什么是好的回答”。

而模型学习的来源:

就是训练数据。

因此:


2. 微调(SFT)训练数据的结构

在监督微调(SFT)中,

训练数据通常包括:

Input → Think → Output

即:


3. SFT 数据示例

input:
小明有3个苹果,又买了2个,现在有几个苹果?

output:
<think>
开始有3个苹果,
后来又买了2个,
所以 3 + 2 = 5
</think>

5

这种数据会训练模型:


4. 强化学习(RL)训练数据的结构

RL 数据与 SFT 不同。

它不仅需要:

还需要:

评价信息(Reward)。


5. RL 数据示例

例如:

input:
小明有3个苹果,又买了2个,现在有几个苹果?

模型生成:

output:
5

然后 Grader 给出:

reward:+1

6. Preference Data(偏好数据)

RL 中更常见的是:

好回答 vs 坏回答

例如:


好回答

回答A:
<think>
3 + 2 = 5
</think>

5

差回答

回答B:
7

偏好标注

A > B

模型会学习:

哪种回答更符合人类偏好。


7. 数据集划分(Dataset Split)

训练中,通常会将数据拆分为:

数据集 作用
Train Set(训练集) 用于训练模型
Validation Set(验证集) 调参与中间评估
Test Set(测试集) 最终评估模型能力

8. 训练集(Train Set)

作用:

让模型学习。

模型会不断看到这些数据。

因此:

模型可能记住训练集。


9. 验证集(Validation Set)

也叫:

作用:

例如:


10. 测试集(Test Set)

测试集最重要的原则:

模型绝对不能见过。

因为测试集的目标是:

真实评估泛化能力。


11. RL 中的数据划分

强化学习同样需要:

原因是:

RL 模型可能“骗奖励”。


12. Reward Hacking(奖励作弊)

例如:

模型可能发现:

只要重复某些词就能得高分。

而不是真正提升能力。

因此:

必须使用独立 RL-Test 数据集。

用于检测:


13. 为什么最终评估必须使用“未见数据”

真正重要的不是:

模型记住了什么。

而是:

模型能否泛化。

因此最终评估应该使用:

否则:

测试结果可能是假的高分。


14. 数据去重(Deduplication)

数据去重(Dedup)非常重要。

因为重复数据会导致:


15. 数据泄漏(Data Leakage)

如果:

模型可能只是:

“背答案”。

这会严重污染评估结果。

因此:

Train / Test 去重非常关键。


16. 按时间划分数据集

一个非常有效的方法是:

按时间切分数据。

例如:

时间 用途
2023 数据 Train
2024 数据 Validation
2025 数据 Test

这样可以更真实模拟:

模型面对未来未知数据的能力。


17. 为什么数据准备如此困难

现实中:

大部分生成的数据其实没有价值。

甚至会:

降低模型性能。


18. 数据质量问题

例如:

这些都会污染模型。


19. 一个真实现象

很多时候:

100份数据里,
真正有价值的可能只有1份。

剩下:

99%
可能都在降低模型质量。

因此:

数据过滤(Data Filtering)非常重要。


20. 为什么测试集尤其重要

很多团队的问题不是:

“模型训练不好”。

而是:

“评估错了”。

如果测试集质量差:

最终:

会错误优化模型方向。


21. 高质量数据的核心特点

好的训练数据通常具备:

特点 说明
正确 答案可靠
多样 覆盖不同场景
高质量推理 CoT合理
格式统一 易训练
无污染 无测试泄漏
高难度 能提升能力

22. 一句话总结

SFT:

模型会变成训练数据的样子。

RL:

模型会变成奖励机制鼓励的样子。

最终:

数据质量决定模型上限,
测试质量决定你是否真的知道模型变强了。